120 Процессы в SRE командах
О чем лекция
- Продакшен встреча
- Работа только в командах
- Роли менеджера и тех. лида
- Дежурства и расписания
- Взаимодействие команд
- Ручные пейджи
- Воррумы
- Процесс работы
- Определение SLA
- Мониторинг SLA
- Задачи ставятся от сбоев и ложных алертов
- Дейлики для SRE
- Правильная организация алертов
- Только важные
- Задачи/пейджи
- Антипаттерны
- Специализация
- Работу делает самый опытный
- Чаты SRE команды
- Team Support
- Users * Team Highlights
TODO(d.maslennikov): Вставить нашу геймификацию
TODO(d.maslennikov): Упомянуть про ротацию дежурных, как фактор обучения
TODO(d.maslennikov): не забыть:
- доставка пейджей только ответственным инженерам (никаких первых линий и прочего)
- уменьшаем скорость реакции
- делаем обратную связь инженерам — ложные срабатывания их будят
- доставка пейджей только звонком (телефон должен трезвонить) до подтвердения и план эскалации на случай, если дежурный не отвечает
- триггеры должны делать сами инженеры, а не отдельные команды
- пейджей может быть настолько мало, чтобы внимательно прочитать каждый